অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা টেক্সট এক্সট্রাকশনসহ OCR (Optical Character Recognition) প্রযুক্তির মাধ্যমে ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট রিড এবং প্রসেস করতে পারে। অ্যাপাচি টিকা Tesseract OCR ইঞ্জিনের সাহায্যে এই কাজটি সম্পন্ন করে।
OCR কি?
OCR (Optical Character Recognition) হলো এমন একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ফাইল থেকে লেখাকে পড়ে এবং সেই টেক্সটকে ডিজিটাল ফরম্যাটে রূপান্তরিত করে।
অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?
অ্যাপাচি টিকা Tesseract OCR লাইব্রেরির ইন্টিগ্রেশন ব্যবহার করে OCR-এর মাধ্যমে ইমেজ ফাইল বা স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে।
প্রয়োজনীয় ডিপেন্ডেন্সি
OCR ফিচার ব্যবহারের জন্য অ্যাপাচি টিকা এবং Tesseract OCR ইনস্টল থাকতে হবে।
Tesseract OCR ইনস্টলেশন (Linux/Ubuntu):
sudo apt-get install tesseract-ocr
উদাহরণ: Tika এবং OCR
১. Tika CLI এর মাধ্যমে OCR ব্যবহার
ধরা যাক আপনার কাছে একটি স্ক্যান করা পিডিএফ বা ইমেজ ফাইল আছে (example.jpg)। অ্যাপাচি টিকা কমান্ড লাইন ইন্টারফেস (CLI) ব্যবহার করে টেক্সট এক্সট্রাক্ট করতে পারবেন।
কমান্ড:
java -jar tika-app-x.x.jar -t example.jpg
Output:
ফাইল থেকে টেক্সট এক্সট্রাক্ট হয়ে টার্মিনালে প্রদর্শিত হবে।
২. Java প্রোগ্রামে OCR ব্যবহার
OCR সাপোর্ট সহ অ্যাপাচি টিকা কোডের মাধ্যমে ইমেজ থেকে টেক্সট প্রসেস করা যায়।
Java কোড:
import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.FileInputStream;
public class TikaOCRExample {
public static void main(String[] args) throws Exception {
// Tika এবং Tesseract OCR সেটআপ
Tika tika = new Tika();
TesseractOCRConfig config = new TesseractOCRConfig();
config.setLanguage("eng"); // ভাষা সেট করুন
ParseContext context = new ParseContext();
context.set(TesseractOCRConfig.class, config);
// ফাইল প্রসেসিং
File file = new File("example.jpg");
Metadata metadata = new Metadata();
FileInputStream inputStream = new FileInputStream(file);
String text = tika.parseToString(inputStream, metadata, context);
System.out.println("Extracted Text: " + text);
}
}
স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন
অ্যাপাচি টিকার মাধ্যমে স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করার জন্যও Tesseract OCR ব্যবহার করা হয়।
কমান্ড লাইন:
java -jar tika-app-x.x.jar -t scanned_document.pdf
Output:
টেক্সট স্ক্যান করা পিডিএফ থেকে এক্সট্রাক্ট হয়ে প্রিন্ট হবে।
Tika OCR কনফিগারেশন
OCR প্রসেস আরও কাস্টমাইজ করার জন্য TesseractOCRConfig ব্যবহার করা হয়।
প্রধান সেটিংস:
- Language: OCR এর ভাষা (ডিফল্ট
eng) - DPI: স্ক্যান করা ফাইলের রেজোলিউশন সেট করা
- Timeout: OCR প্রসেসিংয়ের সময়সীমা নির্ধারণ
Example:
config.setLanguage("ben"); // বাংলা OCR
config.setTimeout(120); // ২ মিনিট টাইমআউট
সুবিধা
- মাল্টি-ল্যাংগুয়েজ সাপোর্ট: Tesseract-এর মাধ্যমে অ্যাপাচি টিকা একাধিক ভাষায় OCR করতে পারে।
- ইমেজ এবং স্ক্যান পিডিএফ সাপোর্ট: ফরম্যাটের সীমাবদ্ধতা নেই।
- ইন্টিগ্রেশন সহজ: Java API এবং CLI উভয়ের মাধ্যমে ব্যবহারযোগ্য।
সারাংশ
অ্যাপাচি টিকা এবং Tesseract OCR-এর সমন্বয়ে স্ক্যান করা ডকুমেন্ট, ইমেজ বা পিডিএফ থেকে সহজে এবং কার্যকরীভাবে টেক্সট এক্সট্রাক্ট করা যায়। এটি ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য একটি অত্যন্ত কার্যকর সমাধান।
Read more